Hvorfor denne separate forfedremodellen er "helt urealistisk"
Emily Reeves; 5. august 2022 Oversatt herfra -fortsettelse.

Temaet er en fortsettelse fra dette (norsk).


La oss nå se på hvordan dette datasettet ble brukt av Baum et al. (2016) i deres egne anermodell og hva med modellen er så problematisk fra et ID-perspektiv.
Synapomorfi stokking for å teste separate aner
I beskrivelsen av den separate anermodellen Baum et al. (2016) sier:
Et nøkkeltrekk ved arts SA-modellen [separate aner] er at for hver karakter [som betyr genetiske varianter eller fossile karakterer] er staten tegnet av hver art uavhengig av den som er tegnet av andre arter.

Bilde 1. Valg mellom alternative modeller

Alt-modeller
Men hva mener de med å si at tilstanden tegnet av hver art er "uavhengig" av den som tegnes av en annen art? Hvordan lager de egentlig sin separate forfedremodell? Det jeg har samlet, er at dette i hovedsak betyr at i deres "separate aner"-modell, ble trekkene eller synapomorfiene tilfeldig stokket, for å lage en hypotetisk modell av hva de tror separate aner ville være. Jeg vil illustrere med et eksempel i figur 1 tilpasset fra det molekylære Perelman-datasettet, hvor jeg tok faktiske navn på gener brukt av Baum et al. (2016), men representerte da de forskjellige synapomorfiene til disse genene som staveendringer for funksjonen til genet.


For å utvikle det: I figur 1 ovenfor er gener ABCA1, BNDF, AFF2, APP og ATXN7. Jeg har representert deres DNA-sekvenser ganske enkelt som små bokstaver (henholdsvis transport, hukommelse, spleising, migrasjon og cytoskjelett) som tilsvarer hovedfunksjonene deres. Så, for å representere synapomorfiene mellom disse organismene, har jeg introdusert noen stavefeil. For eksempel, i figur 1A er ABCA1-genet i organisme 1 at sekvensen er transwort (små bokstaver) og BNDF er menorisk, AFF2 er splysing, APP er megrering og ATXN7 er henholdsvis cytosqeleton. Mønsteret av endringer i genet (kolonnene) er det samme for alle fem genene i figur 1A - legg merke til hvordan topp til bunn de fylogenetiske trærne er de samme. Således representerer figur 1A dataene observert med en viktig advarsel - jeg har kunstig gjort mønsteret av synapomorfier perfekt (CI = 1) bare for klarhetens skyld (ikke tilfelle i de virkelige dataene).


Nå har forfatterne Baum et al. (2016) konstruerte sin separate anermodell ved å permutere (stokke) synapomorfiene til disse sekvensene (figur 1B), på en tilfeldig måte som antok at det ikke ville være noen grunn til å finne korrelasjoner av egenskaper på tvers av forskjellige organismer. Slik beskrev de metodene sine:
For å evaluere om det observerte hierarkiske signalet er mer enn forventet under arter av familie SA, brukte vi PTP-testen som bruker en Monte Carlo-tilnærming for å simulere data under SA-hypotesen. Vi implementerte PTP-tester ved å bruke permuteringsfunksjonen til PAUP* ver. 4.0a134-146 med sparsomhet som optimalitetskriterium og derav trelengde som et mål på trelignende struktur.


Med andre ord, Baum et al. (2016) ga synapomorfien til ABCA1-gensekvensen til organisme 2 til organisme 4 og omvendt ved å bruke en permuteringsfunksjon (se figur 1B). De byttet ikke bare hele genomsekvensen mellom to organismer, men byttet enkeltkarakterer - i dette tilfellet basepar - for å fjerne forbindelsen mellom dem (legg merke til hvordan fargene fra topp til bunn er kryptert). Som forventet, etter tilfeldig stokking av synapomorfiene, økte trelengden drastisk – noe som betyr at flere evolusjonære hendelser var nødvendig for å forklare dataene, og treet var ikke veldig sparsommelig (se tabell 1 fra Baum et al. (2016)).
Etter dette beregnet de p-verdiene (se tabell 3 fra Baum et al. (2016)). P-verdiene er uhyrlig lave, noe som dikterer en sterk avvisning av den separate anermodellen som ble testet. Erika tolker dette her som å indikere at i det minste denne modellen med separate aner er en totalt urimelig hypotese. Metoden deres er gitt nedenfor:
For mange av testene falt den observerte teststatistikken godt utenfor rekkevidden av verdier oppnådd under SA-hypotesen. I slike tilfeller rapporterer vi avstanden til de observerte dataene fra gjennomsnittet av SA-fordelingen i enheter av SD (z-score) og gir også en P-verdi forutsatt en normalfordeling. Selv om sistnevnte bare er en tilnærming, vil den gi leseren en følelse av hvor usannsynlige dataene ville være under SA.


Selvfølgelig avviser jeg denne modellen med "separate aner" også. Denne modellen, slik de har utviklet den, er totalt urealistisk av alle slags årsaker og derfor langt mindre sannsynlig enn den observerte modellen. Nå, hver gang man observerer denne typen data i biologi, bør det definitivt stille et spørsmål hvis ikke umiddelbart avvise modellen. Erika kjenner seg også delvis igjen i dette fordi hun med henvisning til disse nullene også sier «Det er sinnsykt! Du ser det ikke i vanlig vitenskap." I utgangspunktet indikerer p-verdier som er så lave typisk at det er noe virkelig galt med ens modell. Så la oss snakke om dette, og hva som kan være galt med deres modell av separate aner.

Bilde 2. Bakgrunn for formdannelse til komplekse organismer

Modell for komplekse mekanismerIkke en god modell av separate aner
Den korte(re) forklaringen på hvorfor synapomorfi-stokking ikke er en god modell av separate aner, er at synapomorfier eller egenskaper kan grupperes for designet systemer basert på funksjonelle årsaker som optimalisering, begrensninger eller kompatibilitet. Husk at en synapomorfi er en egenskap eller et sted som er unikt delt av medlemmer av en gruppe som bidrar til å definere den gruppen. Under typisk fylogenetisk tenkning antas synapomorfier å eksistere fordi de utviklet seg i den felles stamfaren som ga opphav til gruppen. Men i en ID-basert verden kan synapomorfier eksistere fordi de representerer en rekke egenskaper som kreves for at en gruppe organismer skal utføre en viktig funksjon relatert til deres overlevelse.


I utformede systemer varierer ikke egenskaper tilfeldig, og varierer ofte i henhold til forutsigbare mønstre som kan være relatert til funksjonelle behov. I biologi kan disse funksjonelle behovene være relatert til en organismes nisje, livsstil, bevegelse, metabolisme, kosthold eller annen atferd. Med andre ord, organismer som lever i lignende nisjer og/eller har lignende livsstil, bevegelsesmåter, metabolisme, dietter eller annen atferd, kan ha en tendens til å ha lignende egenskaper som alle er relatert til funksjonelle begrensninger som kreves for at organismen skal overleve i sin miljø. Altså i en designet biosfære, vil egenskaper ikke variere tilfeldig, men vil følge lignende mønstre, korrelasjoner og forhold på tvers av organismer i henhold til deres ulike overlevelsesbehov. For å si det enkelt, vil organismer med lignende livsstil vise lignende arkitektur. Dette vil ikke være sant på grunn av felles aner, men på grunn av designbegrensninger som må oppfylles for at en organisme skal overleve i sitt miljø.

 

Nå, det lange svaret...
ID-tilhengere har et problem med denne modellen med separate aner fordi den ikke tar hensyn til forventede taxa-spesifikke designbegrensninger (også det jeg kaller "funksjonelle synapomorfier"). De fleste ID-tilhengere vil mene at bare synapomorfier som er historiske i naturen kan stokkes på en slik måte. Som et tankeeksperiment, hvis man valgte synapomorfe stoltrekk, vil et veldig fint nestet hierarkisk mønster resultere. Sammenleggbare stoler vil gruppere seg, skrivebordsstoler vil gruppere seg, lenestoler vil gruppere seg, barnestoler vil gruppere seg, og den universelle felles stamfaren kan være noe som en krakk. Hvis en synapomorfi er funksjonell (dvs. bidrar til funksjonen) og ikke historisk, vil denne tilfeldige stokkingen av synapomorfier være analog med å ta stolspesifikke designforskjeller (som et sammenleggbart sete og korte ben for en barnestol), og blande dem opp, og så observerer at sammenleggbare stoler og barnestoler ikke lenger grupperer seg sammen. Når du blander funksjonelle egenskaper til designet objekter, vil du få statistiske nuller, fordi du har slettet designsignalet. Mest sannsynlig vil du også få noen ganske rare design som ikke fungerer veldig bra! Se for deg utemøbler med trekk fra innendørs kontorstoler. Det ville ikke fungere!


Gitt hvordan dataene ble valgt i utgangspunktet, er det svært sannsynlig at mange av disse synapomorfiene er funksjonelle.
Grunnen til at funksjonelle synapomorfier ikke kan brukes er fordi hierarkisk gruppering av funksjonelle synapomorfier eller egenskaper er rikelig i scenarier som vi vet ikke har oppstått på grunn av en nedstigningsprosess med modifikasjon. Liker du ikke stolanalogien min? Ta avstandstreet, laget av Doolittle og Bapteste 2007, av franske avdelinger basert på antall delte etternavn (se figur 1b). Dette er et godt eksempel på hvordan funksjonelle synapomorfier eller egenskaper kan resultere i logisk klynging av data når ingen nedstigning med modifikasjonsprosess har skjedd. Baum et al. (2016) sin feil er derfor som følger: De antar at design må produsere tilfeldige fordelinger av egenskaper. Men all vår erfaring med sett med designet systemer viser at dette ikke er tilfelle. Erika setter ikke pris på dette poenget, og derfor misforstår hun vår kritikk av Baum et al. artikkelen.

 

Det vi vet om design, fra ingeniørkunst og andre livsscenarier, er at design ofte skaper et hierarkisk likhetsmønster sentrert rundt funksjon som kan se ut som aner hvis man tvinger det frem. Hvorfor produserer designere disse hierarkiske mønstrene? De prøver ikke å være villedende, etterligne systemer som ser ut som om de er et produkt av felles aner. I stedet bruker designere ganske enkelt logiske designhensyn som optimalisering, begrensninger, kompatibilitet, avhengigheter eller gjenbruk under designprosessen.
Dermed mener jeg at modellen for separate aner som ble avvist i Baum et al. (2016) støttes ikke av de fleste i ID-fellesskapet fordi det ikke tar hensyn til designforventningen om at funksjonelle synapomorfier eller egenskaper vil gruppere seg på grunn av optimalisering, begrensninger og behov for kompatibilitet.
Deretter vil jeg se på konsistensen til de fylogenetisk informative nettstedene for Baum et al. (2016) artikkelen. Spoilervarsel: Det ser ut som design.

 

Hvor godt passer disse kirsebærplukkede dataene til et evolusjonstre?
Emily Reeves; 8. august 2022. Oversatt herfra.

Bilde 3. Kirsebær


KirsebærI mitt forrige innlegg, her, som svar til YouTuber Gutsick Gibbon, aka Erika, ga jeg et eksempel med fem av Perelman-genene for å illustrere hvordan den separate forfedremodellen ble opprettet i Baum et al. (2016) artikkeleen. I det ikke-stokkede eksemplet, for klarhetens skyld, ga jeg alle synapomorfiene perfekt konsistens på tvers av de forskjellige genene i forskjellige organismer. Sagt på en annen måte, uansett hvilket gen du studerte, var organisme 1 og organisme 2 alltid de mest beslektede, etterfulgt av organisme 3 og til slutt organisme 4. Jeg gjorde dette for klarhetens skyld, men det er ikke slik det oppstår i det virkelige liv. Konflikter mellom genbaserte trær er notorisk vanlige.

 

En ideell verden
Ved å se på Perelman-datasettet, for de 9 av de 54 genene fra Murphy et al. (2001), kan vi se hvor godt alle synapomorfiene passer til det foreslåtte evolusjonstreet ved å se på konsistensindeksene deres. Konsistensindekser (CI) beregnes ved å ta et minimum mulig antall trinn for å bygge treet, delt på det observerte antallet trinn. I en ideell verden vil felles aner føre til at du forventer at CI-er vil falle nær 1, fordi minimum mulig antall trinn bør være nær det observerte. I dette tilfellet vil en CI på 1 bety at alle 54 gener passer konsekvent innenfor det samme evolusjonstreet for primater. En CI på 0 antyder at likheter ikke er bedre enn helt tilfeldige data.
Hvis du ser på tabell 1 fra Murphy et al. du vil se at de estimerte konsistensindeksene for 16 genbaserte trær er mellom 0,25 og 0,65 med gjennomsnittet rundt 0,40. Gitt at gjennomsnittlig CI for disse genene (.40) er nærmere 0 enn 1, er dette ikke gunstig for standard forfedrehypotese - en CI på 0.4 betyr i hovedsak at 60 prosent av dataene ikke passet til et trelignende mønster!

Bilde 4. Er vi overbevist?

Ben Carson

Hva betyr dette?
Dette betyr at det trelignende mønsteret fra datasettet ikke var særlig sterkt. Selvfølgelig, hvis du blander det, ser det sterkt ut sammenlignet med tilfeldighet, men det er faktisk ikke veldig sterkt. Så vi er i et merkelig "gråområde" av resultatene der dataene er mer trelignende enn Gutsick Gibbon mener et designet datasett burde være, men mindre treaktig enn en ID-tilhenger, som meg, mener det burde være hvis det ble produsert ved ikke-styrt avstamning med modifikasjon. Hvem har rett? Vel, så mye vet jeg: Gutsick Gibbon og Baum et al. (2016) har lagt en totalt urealistisk begrensning på et designet datasett: nemlig at egenskaper/synapomorfier må variere tilfeldig, uten hensyn til det faktum at korrelasjoner mellom egenskaper er nødvendige for å oppfylle kravene til funksjonelle systemer. Disse korrelasjonene vil alltid gi en høyere enn tilfeldig CI. I mellomtiden er CI-ene så lave at gjennomsnittlig 60 prosent av dataene ikke passer til det trelignende mønsteret, som er forutsagt av felles aner. Jeg tror det er klart hvilken modell som bedre forklarer disse beskjedne CI-ene: vanlig design.


Jeg vil videre satse på at pro-ID dataforsker Winston Ewerts avhengighetsgraf (som du kan lese om her) ville gi en mye bedre tilpasning til disse dataene. Når vi snakker om Ewerts modell, i mitt neste innlegg vil jeg ta for meg Gutsicks påstand om at avhengighetsgrafen ikke er en ekte modell.

 

 

EMILY REEVES

Emily Reeves
Emily Reeves er en biokjemiker, metabolsk ernæringsfysiolog og aspirerende systembiolog. Doktorgradsstudiene hennes ble fullført ved Texas A&M University i biokjemi og biofysikk. Emily er for tiden en aktiv kliniker for metabolsk ernæring og ernæringsgenomikk ved Nutriplexity. Hun liker å identifisere og designe ernæringsintervensjon for subtile medfødte feil i stoffskiftet. Hun jobber også med stipendiater fra Discovery Institute og det større vitenskapelige samfunnet for å fremme integrering av ingeniørvitenskap og biologi. Hun tilbringer helgene sine på eventyr med mannen sin, brygger kombucha og løper i nærheten av Puget Sound.

 

Oversettelse og bilder ved Asbjørn E. Lund